147 research outputs found

    Extraction de termes, reconnaissance et labellisation de relations dans un th\'esaurus

    Get PDF
    Within the documentary system domain, the integration of thesauri for indexing and retrieval information steps is usual. In libraries, documents own rich descriptive information made by librarians, under descriptive notice based on Rameau thesaurus. We exploit two kinds of information in order to create a first semantic structure. A step of conceptualization allows us to define the various modules used to automatically build the semantic structure of the indexation work. Our current work focuses on an approach that aims to define an ontology based on a thesaurus. We hope to integrate new knowledge characterizing the territory of our structure (adding "toponyms" and links between concepts) thanks to a geographic information system (GIS)

    Automatic reconstruction of itineraries from descriptive texts

    Get PDF
    Esta tesis se inscribe dentro del marco del proyecto PERDIDO donde los objetivos son la extracción y reconstrucción de itinerarios a partir de documentos textuales. Este trabajo se ha realizado en colaboración entre el laboratorio LIUPPA de l' Université de Pau et des Pays de l' Adour (France), el grupo de Sistemas de Información Avanzados (IAAA) de la Universidad de Zaragoza y el laboratorio COGIT de l' IGN (France). El objetivo de esta tesis es concebir un sistema automático que permita extraer, a partir de guías de viaje o descripciones de itinerarios, los desplazamientos, además de representarlos sobre un mapa. Se propone una aproximación para la representación automática de itinerarios descritos en lenguaje natural. Nuestra propuesta se divide en dos tareas principales. La primera pretende identificar y extraer de los textos describiendo itinerarios información como entidades espaciales y expresiones de desplazamiento o percepción. El objetivo de la segunda tarea es la reconstrucción del itinerario. Nuestra propuesta combina información local extraída gracias al procesamiento del lenguaje natural con datos extraídos de fuentes geográficas externas (por ejemplo, gazetteers). La etapa de anotación de informaciones espaciales se realiza mediante una aproximación que combina el etiquetado morfo-sintáctico y los patrones léxico-sintácticos (cascada de transductores) con el fin de anotar entidades nombradas espaciales y expresiones de desplazamiento y percepción. Una primera contribución a la primera tarea es la desambiguación de topónimos, que es un problema todavía mal resuelto dentro del reconocimiento de entidades nombradas (Named Entity Recognition - NER) y esencial en la recuperación de información geográfica. Se plantea un algoritmo no supervisado de georreferenciación basado en una técnica de clustering capaz de proponer una solución para desambiguar los topónimos los topónimos encontrados en recursos geográficos externos, y al mismo tiempo, la localización de topónimos no referenciados. Se propone un modelo de grafo genérico para la reconstrucción automática de itinerarios, donde cada nodo representa un lugar y cada arista representa un camino enlazando dos lugares. La originalidad de nuestro modelo es que además de tener en cuenta los elementos habituales (caminos y puntos del recorrido), permite representar otros elementos involucrados en la descripción de un itinerario, como por ejemplo los puntos de referencia visual. Se calcula de un árbol de recubrimiento mínimo a partir de un grafo ponderado para obtener automáticamente un itinerario bajo la forma de un grafo. Cada arista del grafo inicial se pondera mediante un método de análisis multicriterio que combina criterios cualitativos y cuantitativos. El valor de estos criterios se determina a partir de informaciones extraídas del texto e informaciones provenientes de recursos geográficos externos. Por ejemplo, se combinan las informaciones generadas por el procesamiento del lenguaje natural como las relaciones espaciales describiendo una orientación (ej: dirigirse hacia el sur) con las coordenadas geográficas de lugares encontrados dentro de los recursos para determinar el valor del criterio ``relación espacial''. Además, a partir de la definición del concepto de itinerario y de las informaciones utilizadas en la lengua para describir un itinerario, se ha modelado un lenguaje de anotación de información espacial adaptado a la descripción de desplazamientos, apoyándonos en las recomendaciones del consorcio TEI (Text Encoding and Interchange). Finalmente, se ha implementado y evaluado las diferentes etapas de nuestra aproximación sobre un corpus multilingüe de descripciones de senderos y excursiones (francés, español, italiano)

    Revitalisation numérique du patrimoine littéraire territorialisé (La)

    Get PDF
    Intervention au colloque "Le numérique : impact sur le cycle de vie du document", organisé à l\u27université de Montréal par l\u27EBSI et l\u27ENSSIB du 13 au 15 octobre 2004. Dans tous les pays d\u27Europe de l\u27ouest les institutions nationales prennent des initiatives pour mettre leur patrimoine culturel d\u27intérêt national ou universel en valeur par le biais des technologies numériques et du web. En revanche la valorisation des fonds de notoriété moindre est beaucoup plus ardue, qu\u27il s\u27agisse de corpus relevant de registres "exigeants" ou plus circonscrits en termes de rayonnement géographique. Cette communication propose une réflexion sur la mise en valeur des fonds territorialisés (locaux, régionaux) et tout particulièrement des ensembles documentaires constitués autour des corpus littéraires anciens

    Utilisation de la relation " Verbe - Préposition - Toponyme" pour un inventaire lexical automatique

    Get PDF
    8 pagesInternational audienceNous proposons une approche, permettant à partir d'un modèle, d'extraire et d'interpréter des informations à connotation géographique à partir d'une analyse automatique d'un corpus de textes littéraires (récits de voyages dans les Pyrénées au XIXe siècle). Il s'agit de la combinaison d'une approche lexico-syntaxique permettant le marquage et l'interprétation d'expressions contenant au moins une entité nommée géographique avec une analyse grammaticale ciblée impliquant des verbes de déplacement (ou de perception) permettant le marquage d'expressions de mouvement et d'expressions spatiales. L'inventaire lexical obtenu à l'aide de cette démarche est ensuite exploité à des fins d'enrichissement d'une ontologie géographique construite par l'IGN

    Towards Heterogeneous Resources-based Ambiguity Reduction of Sub-typed Geographic Named Entities

    Get PDF
    International audienceThe aim of this work is to nd sub-typed Geographic Named Entities from the analysis of relations between Place Names surrounded nominal group within a specic phrasal context in a set of textual documents. The paper presents a method involving natural language processing and heterogeneous resources like gazetteers, thesauri or ontologies. The work and the results focus a French language corpus. However, the uses of quite generic lexico-syntactic patterns in pre-selected phrasal context can be tuned for others languages

    Normalizing Spatial Information to Better Combine Criteria in Geographical Information Retrieval

    Get PDF
    International audienceIt is generally accepted that geographical information or G.I. (such as texts, maps and tables) is chiefly composed of 3 kinds of criteria : spatial, temporal and thematic criteria. The main focus of this article is spatial criteria. More specifically, we have developed a processing sequence that can extract the spatial information contained in non-structured cultural heritage texts. This processing sequence indexes spatial information, which enables information retrieval (I.R.) based on the same criteria. Our goal is to normalize heterogeneous spatial information. This normalization is carried out at the index level by grouping spatial information together and by using statistics to calculate weights of spatial areas and the pertinence of the results. Thus, we aim to develop a general IR strategy that is dedicated to spatial information, but which can be applied to temporal and thematic information as well. By generalizing this approach, homogeneous IR strategies will be able to combine spatial, temporal and thematic criteria for more efficient geographic IR methods

    Indexation spatiale et temporelle baséee sur un principe de "tuilage" : contribution à la recherche d'information géographique dans des documents textuels faiblement structurés

    Get PDF
    International audienceLa plupart des moteurs de recherche nécessitent, pour fonctionner, une indexation préalable des documents. Certaines de ces approches sont limitées compte tenu de contextes particuliers ou de la forme particulière de l'information recherchée. Notre contribution porte sur la construction d'index adaptés à la facette spatiale et temporelle spécifique au contexte de l'information géographique tout en permettant une compatibilité avec les outils de recherche génériques. Ce travail présente une stratégie générique d'indexation basée sur le principe du " tuilage ". Elle s'applique aussi bien sur la composante spatiale que temporelle mais peut également être utilisée sur la composante thématique. Nous évaluons ensuite l'apport de cette approche à la recherche d'information géographique

    Recherche de relations spatio-temporelles : une méthode basée sur l'analyse de corpus textuels

    Get PDF
    International audienceThis paper presents a work package realized for the GéOnto project. A new method is proposed for an enrichment of a first geographical ontology developed beforehand. This method relies on text analysis by lexico-syntactic patterns. From the retrieve of n-ary relations the method automatically detect those involved in a spatial and/or temporal relation in a context of a description of journeys
    corecore